在本文中,我们建议利用对话的独特特征,共享参与者的常识性知识,以解决总结它们的困难。我们提出了病态的框架,该框架使用常识推论作为其他背景。与以前仅依赖于输入对话的工作相比,Sick使用外部知识模型来生成丰富的常识推断,并选择具有基于相似性选择方法的最可能的推理。基于生病的,病人++的理解为监督,在总结多任务学习环境中的对话时,添加了产生常识推断的任务。实验结果表明,通过注入常识性知识,我们的框架比现有方法产生更多信息和一致的摘要。
translated by 谷歌翻译
我们提出了多语言开放文本(MOT),这是一种新的多语言语料库,其中包含44种语言的文本,其中许多语言限制了现有的文本资源用于自然语言处理。该语料库的第一个版本包含超过280万篇新闻文章,并在2001 - 2022年之间发表了另外100万个短片段(照片标题,视频描述等),并从美国之声网站收集。我们描述了收集,过滤和处理数据的过程。原始材料在公共领域,我们的收藏品使用Creative Commons许可证(CC By 4.0)获得许可,并且用于创建该语料库的所有软件均在MIT许可证下发布。随着其他文档的发布,该语料库将定期更新。
translated by 谷歌翻译
本文介绍了一种在自回归关注文本到语音系统中控制音素级别的韵律的方法。除了通常完成的常见框架中,我们将从培训集中的语音数据中直接提取音素级F0和持续时间特征,而不是学习潜在韵律特征。每个韵律特征是使用无监督聚类离散化,以便为每个话语产生一系列韵律标签。该序列与音素序列并行使用,以便通过利用韵律编码器和相应的注意模块来调节解码器。实验结果表明,该方法保留了高质量的生成语音,同时允许对F0和持续时间进行音素级控制。通过用音符替换F0集群质心,该模型还可以在扬声器范围内提供对音符和八度音的控制。
translated by 谷歌翻译
In this paper, we present a novel method for phoneme-level prosody control of F0 and duration using intuitive discrete labels. We propose an unsupervised prosodic clustering process which is used to discretize phoneme-level F0 and duration features from a multispeaker speech dataset. These features are fed as an input sequence of prosodic labels to a prosody encoder module which augments an autoregressive attention-based text-to-speech model. We utilize various methods in order to improve prosodic control range and coverage, such as augmentation, F0 normalization, balanced clustering for duration and speaker-independent clustering. The final model enables fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. Instead of relying on reference utterances for inference, we introduce a prior prosody encoder which learns the style of each speaker and enables speech synthesis without the requirement of reference audio. We also fine-tune the multispeaker model to unseen speakers with limited amounts of data, as a realistic application scenario and show that the prosody control capabilities are maintained, verifying that the speaker-independent prosodic clustering is effective. Experimental results show that the model has high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
translated by 谷歌翻译
现有的唱歌语音合成模型(SVS)通常在唱歌数据上进行训练,并取决于容易出错的时间对齐和持续时间功能或明确的音乐得分信息。在本文中,我们提出了Karaoker,Karaoker是一种基于多言式Tacotron的模型,该模型以语音特征为条件,该功能专门针对口语数据进行训练,而无需时间对齐。卡拉克(Karaoker)在从看不见的歌手/扬声器的源波形中提取的多维模板之后,综合了歌声和传输风格。该模型在连续数据上以单个深卷积编码为共同条件,包括音高,强度,和谐,实扣,cepstral峰值突出和八度。我们通过功能重建,分类和说话者身份识别任务扩展了文本到语音训练目标,这些任务将模型指导到准确的结果。除多任务外,我们还采用了Wasserstein GAN训练方案以及声学模型的输出的新损失,以进一步完善模型的质量。
translated by 谷歌翻译
在这项工作中,我们介绍了SOMOS数据集,这是第一个大规模的意见分数(MOS)数据集,该数据集由完全神经文本到语音(TTS)样本组成。它可以用于训练专注于现代合成器评估的自动MOS预测系统,并可以刺激声学模型评估的进步。它由LJ语音语音的20k合成话语组成,LJ语音是一个公共领域的语音数据集,是建立神经声学模型和声码器的常见基准。来自200 TTS系统(包括香草神经声学模型以及允许韵律变化的模型)产生的话语。 LPCNET VOCODER用于所有系统,因此样品的变化仅取决于声学模型。合成的话语提供了平衡,足够的域和长度覆盖范围。我们对3个英国亚马逊机械土耳其人地点进行了MOS自然评估,并共享实践,从而为这项任务提供可靠的人群注释。我们为SOMOS数据集上的最先进的MOS预测模型提供了基线结果,并显示了该模型在评估TTS话语时所面临的局限性。
translated by 谷歌翻译
与云TT相比,在Edge设备上运行的文本到语音(TTS)服务具有许多优势,例如延迟和隐私问题。但是,复杂性和小型脚印的神经声码器不可避免地会产生烦人的声音。这项研究提出了一个串联的LPCNET2,这是一种改进的LPCNET体系结构,可为云服务器提供高效的高效性能,并在低资源边缘设备的低复杂度中提供高效的性能。单逻辑分布可实现计算效率,并且有见地的技巧在保持语音质量的同时减少了模型足迹。还提出了一种从韵律模型中产生较低采样率的双重架构,以降低维护成本。该实验表明,捆扎的LPCNET2在RPI 3B上使用的型号为1.1MB,在运行速度快于实时的速度时,可以产生令人满意的语音质量。我们的音频样本可在https://srtts.github.io/bunchedlpcnet2上找到。
translated by 谷歌翻译
混合方案表明混合一对样品以创造增强的训练样本,并最近获得了相当大的关注,以提高神经网络的普遍性。混合的简单和广泛使用的扩展是与区域辍学方法相结合:从样品中除去随机贴片并用另一个样品的特征替换。尽管它们的简单性和有效性,但这些方法易于由于它们的随机性而产生有害样品。为了解决这个问题,最近提出了“最大显着性”策略:只选择最具信息性的功能以防止这种现象。然而,他们现在缺乏样品多样化,因为它们总是确定具有最大显着性的区域,将偏置注入增强数据。在本文中,我们展示了一种新颖,简单的混合变体,捕获了两个世界的最佳变化。我们的想法是两倍。通过将特征的随机抽查和“将它们嫁接到另一个样本”,我们的方法有效地产生了多样化但有意义的样本。其第二种成分是通过以显着校准的方式混合标签来生产接枝样品的标签,这整流了随机抽样程序引入的监督误导。我们在CiFar,微小想象成和Imagenet数据集下的实验表明,我们的方案不仅在分类准确性方面优于当前的最先进的增强策略,但在数据损坏等压力条件下也是优越的对象遮挡。
translated by 谷歌翻译
尽管能够与过度能力网络概括,但深神经网络通常会学会滥用数据中的虚假偏见而不是使用实际的任务相关信息。由于此类快捷方式仅在收集的数据集中有效,因此由此产生的偏置模型在现实世界的投入上表现不佳,或导致意外的社交影响,例如性别歧视。为了抵消偏差的影响,现有方法可以利用辅助信息,这在实践中很少可获得,或者在训练数据中的无偏见样本中筛选,希望能够充分存在清洁样品。但是,这些关于数据的推定并不总是保证。在本文中,我们提出了通过生成偏差变换〜(CDVG)对比下展,该〜(CDVG)能够在现有的方法中经营,其中现有方法由于未偏置的偏差样品而不足的预设而下降。通过我们的观察,不仅如前所述的鉴别模型,而且生成模型倾向于关注偏差,CDVG使用翻译模型来将样本中的偏置转换为另一种偏差模式,同时保留任务相关信息。 。通过对比学习,我们将转化的偏见视图与另一个学习偏见,学习偏见不变的表示。综合和现实世界数据集的实验结果表明,我们的框架优于目前的最先进,并且有效地阻止模型即使在无偏差样本极为稀缺时也会被偏置。
translated by 谷歌翻译
本文提出了一种表达语音合成架构,用于在单词级别建模和控制说话方式。它试图借助两个编码器来学习语音数据的单词级风格和韵律表示。通过查找声学特征的每个单词的样式令牌的组合,第二个模型样式,第二个输出单词级序列仅在语音信息上调节,以便从风格信息解开它。两个编码器输出与音素编码器输出对齐并连接,然后用非周度塔歇尔策略模型解码。额外的先前编码器用于自向预测样式标记,以便模型能够在没有参考话语的情况下运行。我们发现所产生的模型给出了对样式的单词级和全局控制,以及韵律转移能力。
translated by 谷歌翻译